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Résumé 

Ce papier propose une nouvelle méthode pour la construc- 
tion automatique de hiérarchies sémantiques adaptées à la 
classification et à V annotation d'images. La construction 
de la hiérarchie est basée sur une nouvelle mesure de si- 
milarité sémantique qui intègre plusieurs sources d'infor- 
mations : visuelle, conceptuelle et contextuelle que nous 
définissons dans ce papier L'objectif est de fournir une 
mesure qui est plus proche de la sémantique des images. 
Nous proposons ensuite des règles, basées sur cette me- 
sure, pour la construction de la hiérarchie finale qui en- 
code explicitement les relations hiérarchiques entre les 
différents concepts. La hiérarchie construite est ensuite 
utilisée dans un cadre de classification sémantique hié- 
rarchique d'images en concepts visuels. Nos expériences 
et résultats montrent que la hiérarchie construite permet 
d' améliorer les résultats de la classification. 

Mots Clef 

Construction de hiérarchies sémantiques, sémantique 
d'images, annotation d'images, mesures de similarité sé- 
mantiques, classification hiérarchique d'images. 

Abstract 

This paper proposes a new methodology to automatically 
build semantic hiérarchies suitable for image annotation 
and classification. The building ofthe hierarchy is based on 
a new measure of semantic similarity. The proposed mea- 
sure incorporâtes several sources of information : visual, 
conceptual and contextual as we defined in this paper The 
aim is to provide a measure that best represents image se- 
mantics. We then propose rules based on this measure, for 
the building ofthe final hierarchy, and which explicitly en- 
code hierarchical relationships between différent concepts. 
Therefore, the built hierarchy is used in a semantic hierar- 
chical classification framework for image annotation. Our 
experiments and results show that the hierarchy built im- 



proves classification results. 
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1 Introduction 

Avec l'explosion des données images, il devient essentiel 
de fournir une annotation sémantique de haut niveau à ces 
images pour satisfaire les attentes des utilisateurs dans un 
contexte de recherche d'information. Des outils efficaces 
doivent donc être mis en place pour permettre une descrip- 
tion sémantique précise des images. Depuis les dix der- 
nières années, plusieurs approches d'annotation automa- 
tique d'images ont donc été proposées ||5] \Ï9\ O |2] [27] 
pour essayer de réduire le problème bien connu du fossé 
sémantique 1291 . Cependant, dans la plupart de ces ap- 
proches, la sémantique est souvent limitée à sa manifes- 
tation perceptuelle, i.e. au travers de l'apprentissage d'une 
fonction de correspondance associant les caractéristiques 
de bas niveau à des concepts visuels de plus haut niveau 
sémantique 15]|T9|. Cependant, malgré une efficacité re- 
lative concernant la description du contenu visuel d'une 
image, ces approches sont incapables de décrire la séman- 
tique d'une image comme le ferait un annotateur humain. 
Elles sont également confrontées au problème du passage 
à l'échelle ||2T1 . En effet, les performances de ces ap- 
proches varient considérablement en fonction du nombre 
de concepts et de la nature des données ciblées I.18J . Cette 
variabilité peut être expliquée d'une part par la large varia- 
bilité visuelle intra-concept, et d'autre part par une grande 
similarité visuelle inter-concept, qui conduisent souvent à 
des annotations imparfaites. 

Récemment, plusieurs travaux se sont intéressés à l'utili- 
sation de hiérarchies sémantiques pour surmonter ces pro- 
blèmes If3ni [3ll4l. En effet, l'utilisation de connaissances 



explicites, telles que les hiérarchies sémantiques, peut amé- 
liorer l'annotation en fournissant un cadre formel qui per- 
met d'argumenter sur la cohérence des informations ex- 
traites des images. En particuher, les hiérarchies séman- 
tiques se sont avérées être très utiles pour réduire le fossé 
sémantique lilH . Trois types de hiérarchies pour l'anno- 
tation et la classification d'images ont été récemment ex- 
plorées : 1) les hiérarchies basées sur des connaissances 
textuelles (nous ferons référence à ce type de connais- 
sances par information conceptuelle dans le reste du pa- 
pier)pl 1231 [311 [T2JI . 2) les hiérarchies basées sur des in- 
formations visuelles (ou perceptuelles), i.e. caractéristiques 
de bas niveau de l'image Il28l l6l [33l . 3) les hiérarchies que 
nous nommerons sémantiques basées à la fois sur des infor- 
mations textuelles et visuelles 1.20, .13. .32] . Les deux pre- 
mières catégories d'approches ont montré un succès hmité 
dans leur usage. En effet, d'un côté l'information concep- 
tuelle seule n'est pas toujours en phase avec la séman- 
tique de l'image, et est alors insuffisante pour construire 
une hiérarchie adéquate pour l'annotation d'images 1 3211 . 
De l'autre coté, l'information perceptuelle ne suffit pas 
non plus à elle seule pour la construction d'une hiérarchie 
sémantique adéquate (voir le travail de fSSl). En effet, il 
est difficile d'interpréter ces hiérarchies dans des niveaux 
d'abstraction plus élevés. Ainsi, la combinaison de ces 
deux sources d'information semble donc obligatoire pour 
construire des hiérarchies sémantiques adaptées à l'anno- 
tation d'images. 

La suite de ce papier est organisée comme suit : dans la 
section 2 nous présentons les travaux connexes. La section 
3 présente la mesure sémantique proposée dans un pre- 
mier temps, puis les règles utilisées pour la construction 
de la hiérarchie sémantique. Les résultats expérimentaux 
sont présentés dans la section 4. La section 5 présente nos 
conclusions et perspectives. 

2 État de l'art 

Plusieurs méthodes ll2ÔllT3ll23l 13111281 161 ont été proposées 
pour la construction de hiérarchies de concepts dédiées à 
l'annotation d'images. Dans cette section nous présente- 
rons ces différentes méthodes en suivant l'ordre proposé 
dans l'introduction. 

Marszalek & al. Il23l ont proposé de construire une hié- 
rarchie par l'extraction du graphe pertinent dans WordNet 
reliant l'ensemble des concepts entre eux. La structure de 
cette hiérarchie est ensuite utilisée pour construire un en- 
semble de classifieurs hiérarchiques. Deng & al. ÎT2\ ont 
proposé ImageNet, une ontologie à grande échelle pour les 
images qui repose sur la structure de WordNet, et qui vise à 
peupler les 80 000 synsets de WordNet avec une moyenne 
de 500 à 1000 images sélectionnées manuellement. L'on- 
tologie LSCOM |24| vise à concevoir une taxonomie avec 
une couverture de près de 1 000 concepts pour la recherche 
de vidéo dans les bases de journaux télévisés. Une méthode 



1. Exemple d'information textuelle utilisée pour la construction des 
hiérarchies : les tags, contexte environnant, WordNet, Wikipedia, etc. 



pour la construction d'un espace sémantique enrichi par les 
ontologies est proposée dans {3T\. Bien que ces hiérarchies 
soient utiles pour fournir une structuration compréhensible 
des concepts, elles ignorent l'information visuelle qui est 
une partie importante du contenu des images. 

D'autres travaux se sont donc basés sur l'information vi- 
suelle Il28l l6l l33ll . Une plateforme (I2T) dédiée à la généra- 
tion automatique de descriptions textuelles pour les images 
et les vidéos est proposée dans 1 33 1. I2T est basée principa- 
lement sur un graphe AND-OR pour la représentation des 
connaissances visuelles. Sivic & al. Il28l ont proposé de re- 
grouper les objets dans une hiérarchie visuelle en fonction 
de leurs similarités visuelles. Le regroupement est obtenu 
en adaptant, pour le domaine de l'image, le modèle d'Al- 
location Dirichlet Latente hiérarchique (hLDA) [7J. Bart 
& al. jjôl ont proposé une méthode bayésienne pour or- 
ganiser une collection d'images dans une arborescence en 
forme d'arbre hiérarchique. Dans f\ï\, une méthode pour 
construire automatiquement une taxonomie pour la classifi- 
cation d'images est proposée. Les auteurs suggèrent d'utili- 
ser cette taxonomie afin d'augmenter la rapidité de la clas- 
sification au lieu d'utiliser un classifieur multi-classe sur 
toutes les catégories. Une des principales limitations de 
ces hiérarchies visuelles est qu'elles sont difficiles à inter- 
préter Ainsi, une hiérarchie sémantique compréhensible et 
adéquate pour l'annotation d'images devrait tenir compte 
à la fois de l'information conceptuelle et de l'information 
visuelle lors du processus du construction. 

Parmi les approches pour la construction de hiérarchies sé- 
mantiques, Li & al. [2(51 ont présenté une méthode basée à 
la fois sur des informations visuelles et textuelles (les éti- 
quettes associées aux images) pour construire automatique- 
ment une hiérarchie, appelée "semantivisual", selon le mo- 
dèle hLDA. Une troisième source d'information que nous 
nommerons information contextuelle est aussi utilisée pour 
la construction de telles hiérarchies. Nous discutons plus 
précisément de cette information dans le paragraphe sui- 
vant. Fan & al. llTSl ont proposé un algorithme qui intègre 
la similarité visuelle et la similarité contextuelle entre les 
concepts. Ces similarités sont utilisées pour la construction 
d'un réseau de concepts utilisé pour la désambiguisation 
des mots. Une méthode pour la construction de hiérarchies 
basées sur la similarité contextuelle et visuelle est proposée 
dans llT3l . La "distance de Flickr" est proposée dans ll32l . 
Elle représente une nouvelle mesure de similarité entre les 
concepts dans le domaine visuel. Un réseau de concepts 
visuels (VCNet) basé sur cette distance est également pro- 
posé dans |32|. Ces hiérarchies sémantiques ont un poten- 
tiel intéressant pour améliorer l'annotation d'images. 
Discussion 

Comme nous venons de le voir, plusieurs approches de 
construction de hiérarchies se basent sur WordNet l,23llT2l . 
Toutefois, WordNet n'est pas très approprié à la modéli- 
sation de la sémantique des images. En effet, l'organisa- 
tion des concepts dans WordNet suit une structure psy- 
cholinguistique, qui peut être utile pour raisonner sur les 



concepts et comprendre leur signification, mais elle est 
limitée et inefficace pour raisonner sur le contexte de 
l'image ou sur son contenu. En effet, les distances entre les 
concepts similaires dans WordNet ne reflètent pas néces- 
sairement la proximité des concepts dans un cadre d'an- 
notation d'images. Par exemple, selon la distance du plus 
court chemin dans WordNet, la distance entre les concepts 
"Requin" et "Baleine" est de 11 (nœuds), et entre "Humain" 
et "Baleine" est de 7. Cela signifie que le concept "Baleine" 
est plus proche (similaire) de "Humain" que de "Requin". 
Ceci est tout à fait cohérent d'un point de vue biologique, 
parce que "Baleine" et "Humain" sont des mammifères tan- 
dis que "Requin" ne l'est pas. Cependant, dans le domaine 
de l'image il est plus intéressant d'avoir une similarité plus 
élevée entre "Requin" et "Baleine", puisqu'ils vivent dans 
le même environnement, partagent de nombreuses carac- 
téristiques visuelles, et il est donc plus fréquent qu'on les 
retrouve conjointement dans une même image ou un même 
type d'images (ils partagent un même contexte). Donc, une 
hiérarchie sémantique appropriée devrait représenter cette 
information ou permettre de la déduire, pour aider à com- 
prendre la sémantique de l'image. 

3 Méthode Proposée 

En se basant sur la discussion précédente, nous définis- 
sons les hypothèses suivantes sur lesquelles repose notre 
approche : 

Une hiérarchie sémantique appropriée pour l 'annotation 
d'images doit : 1) modéliser le contexte des images (comme 
défini dans la section précédente), 2) permettre de regrou- 
per des concepts selon leurs caractéristiques visuelles et 
textuelles, 3) et refiéter la sémantique des images, i.e. l'or- 
ganisation des concepts dans la hiérarchie et leurs rela- 
tions sémantiques est fidèle à la sémantique d'images. 
Nous proposons dans ce papier une nouvelle méthode pour 
la construction de hiérarchies sémantiques appropriées à 
l'annotation d'images. Notre méthode se base sur une nou- 
velle mesure pour estimer les relations sémantiques entre 
concepts. Cette mesure intègre les trois sources d'informa- 
tion que nous avons décrites précédemment. Elle est donc 
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Figure 1 - Illustration de la mesure proposée basée sur 
les similarités normalisées : visuelle Ip, conceptuelle tF et 
contextuelle 7 entre concepts. 



basée sur 1) une similarité visuelle qui représente la cor- 
respondance visuelle entre les concepts, 2) une similarité 
conceptuelle qui définit un degré de similarité entre les 
concepts cibles, basée sur leur définition dans WordNet, 
et 3) une similarité contextuelle qui mesure la dépendance 
statistique entre chaque paire de concepts dans un corpus 
donné (cf. Figure[T]i. Ensuite cette mesure est utilisée dans 
des règles qui permettent de statuer sur la vraisemblance 
des relations de parenté entre les concepts, et permettent 
de construire une hiérarchie. 

Étant donné un ensemble de couples image/annotation, où 
chaque annotation décrit un ensemble de concepts asso- 
ciés à l'image, notre approche permet de créer automa- 
tiquement une hiérarchie sémantique adaptée à l'annota- 
tion d'images. Plus formellement, nous considérons / =< 
ii,i2:' ■ ■ ,î£ > l'ensemble des images de la base consi- 
dérée, et C =< Cl, C2, • • • ,cjs/ >\t vocabulaire d'annota- 
tion de ces images, i.e. l'ensemble de concepts associés à 
ces images. L'approche que nous proposons consiste alors 
à identifier M nouveaux concepts qui permettent de relier 
tous les concepts de C dans une structure hiérarchique re- 
présentant au mieux la sémantique d'images. 

3.1 Similarité Visuelle 

Soit x" une représentation visuelle quelconque de l'image 
i (vecteur de caractéristiques visuelles), on apprend pour 
chaque concept Cj un classifieur qui permet d'associer ce 
concept à ses caractéristiques visuelles. Pour cela, nous 
utilisons M machines à vecteurs de support (SVM) IfTUl 
binaires (un-contre-tous) avec une fonction de décision 
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oii ; 'K{x'^,x'") est la valeur d'une fonction noyau pour 
l'échantillon d'apprentissage x^' et l'échantillon de test x^, 
yi G {1,-1} est l'étiquette de la classe de x^, ai est le 
poids appris de l'échantillon d'apprentissage x^, et b est 
un paramètre seuil appris. Il est à noter que les échantillons 
d'apprentissage x^ avec leurs poids a,; > forment les 
vecteurs de support. 

Après avoir testé différentes fonction noyau sur notre en- 
semble d'apprentissage, nous avons décidé d'utiliser une 
fonction noyau à base radiale : 

K(x,y) = ea;pffc^) (2) 



Maintenant, compte tenu de ces J\f SVM appris où les re- 
présentations visuelles des images sont les entrées et les 
concepts (classes d'images) sont les sorties, nous voulons 
définir pour chaque classe de concept un centroïde ^(q) 
qui soit représentatif du concept c,;. Les centroïdes définis 
doivent alors minimiser la somme des carrés à l'intérieur 
de chaque ensemble Si : 



argmin^ ^ 



IJ-i 



(3) 



où Si est l'ensemble de vecteurs de support de la classe q, 
S = {Si, 5*2, •• • , Sjs/{, et /ii est la moyenne des points 
dans Si. 

L'objectif étant d'estimer une distance entre ces classes 
afin d'évaluer leurs similarités visuelles, nous calculons le 
centroïde -di^Ci) de chaque concept visuel c,; en utilisant : 



et Ci est alors mesurée en utilisant la similarité cosinus 
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La similarité visuelle entre deux concepts Ci et Cj, est alors 
inversement proportionnelle à la distance entre leurs cen- 
troïdes respectifs ^(c^) et "dlcj) : 



^{Ci,Cj) 



1 

l + d{ê{c,),ê{cj)) 



(5) 



oii d{-d{ci), i9(cj)) est la distance euclidienne entre les deux 
vecteurs ^(ci) et ^{cj) définie dans l'espace des caractéris- 
tiques visuelles. 

3.2 Similarité Conceptuelle 

La similarité conceptuelle reflète la relation sémantique 
entre deux concepts d'un point de vue linguistique et taxo- 
nomique. Plusieurs mesures de similarité ont été proposées 
dans la littérature 1111261 Qj. La plupart sont basés sur une 
ressource lexicale, comme WordNet IfTôl . Une première 
famille d'approches se base sur la structure de cette res- 
source externe (souvent un réseau sémantique ou un graphe 
orienté) et la similarité est alors calculée en fonction des 
distances des chemins reliant les concepts dans cette struc- 
ture |8J. Cependant, comme nous l'avons déjà dit précé- 
demment, la structure de ces ressources ne reflète pas for- 
cement la sémantique des images, et ce type de mesures 
ne semble donc pas adapté à notre problématique. Une ap- 
proche alternative pour mesurer le degré de similarité sé- 
mantique entre deux concepts est d'utiliser la définition 
textuelle associée à ces concepts. Dans le cas de WordNet, 
ces définitions sont connues sous le nom de glosses. Par 
exemple, Banerjee et Pedersen 1 1 1 ont proposé une mesure 
de proximité sémantique entre deux concepts qui est basée 
sur le nombre de mots communs (chevauchements) dans 
leurs définitions (glosses). 

Dans notre approche, nous avons utilisé la mesure de si- 
milarité proposée par ESl . qui se base sur WordNet et 
l'exploitation des vecteurs de co-occurrences du second 
ordre entre les glosses. Plus précisément, dans une pre- 
mière étape un espace de mots de taille V est construit en 
prenant l'ensemble des mots significatifs utilisés pour dé- 
finir l'ensemble des synsets^jde WordNet. Ensuite, chaque 
concept Ci est représenté par un vecteur w ^ de taille V, 
où chaque ième élément de ce vecteur représente le nombre 
d'occurrences du ième mot de l'espace des mots dans la dé- 
finition de Ci . La similarité sémantique entre deux concepts 



2. Synonym set : composante atomique sur laquelle repose WordNet, 
composée d'un groupe de mots interchangeables dénotant un sens ou un 
usage particulier A un concept correspond un ou plusieurs synsets. 
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Certaines définitions de concepts dans WordNet sont très 
concises et rendent donc cette mesure peu fiable. En consé- 
quence, les auteurs de ESJI ont proposé d'étendre les 
glosses des concepts avec les glosses des concepts si- 
tués dans leur voisinage d'ordre l. Ainsi, pour chaque 
concept Ci l'ensemble '^^ est défini comme l'ensemble des 
glosses adjacents connectés au concept Ci (\E'ci={gloss(ci), 
gloss(hyponyms(ci)), gloss(meronyms(ci)), etc.}). Ensuite 
pour chaque élément x (gloss) de ^^^ . sa représentation 
Wx est construite comme expliqué ci-dessus. La mesure 
de similarité entre deux concepts Ci et Cj est alors définie 
comme la somme des cosinus individuels des vecteurs cor- 
respondants : 
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Enfin, chaque concept dans WordNet peut correspondre à 
plusieurs sens (synsets) qui diffèrent les uns des autres dans 
leur position dans la hiérarchie et leur définition. Une étape 
de désambiguïsation est donc nécessaire pour l'identifica- 
tion du bon synset. Par exemple, la similarité entre "Sou- 
ris" (animal) et "Clavier" (périphérique) diffère largement 
de celle entre "Souris" (périphérique) et "Clavier" (périphé- 
rique). Ainsi, nous calculons d'abord la similarité concep- 
tuelle entre les différents sens (synset) de Cj et Cj . La valeur 
maximale de similarité est ensuite utilisée pour identifier le 
sens le plus probable de ces deux concepts, i.e. désambigiii- 
ser Ci et Cj. La similarité conceptuelle est alors calculée par 
la formule suivante : 

■n{ci,Cj) — argmax 0(Si,ôj) (8) 

Si£s{ci),Sj£s{cj) 

où s{cx) est l'ensemble des synsets qu'il est possible d'as- 
socier aux différents sens du concept Cx- 

3.3 Similarité Contextuelle 

Comme cela a été expliqué dans la section |2l l'informa- 
tion liée au contexte d'apparition des concepts est très 
importante dans un cadre d'annotation d'images. En ef- 
fet, cette information, dite contextuelle, permet de relier 
des concepts qui apparaissent souvent ensemble dans des 
images ou des mêmes types d'images, bien que sémanti- 
quement éloignés du point de vue taxonomique. De plus, 
cette information contextuelle peut aussi permettre d'infé- 
rer des connaissances de plus haut niveau sur l'image. Par 
exemple, si une photo contient "Mer" et "Sable", il est pro- 
bable que la scène représentée sur cette photo est celle de 
la plage. Il semble donc important de pouvoir mesurer la 
similarité contextuelle entre deux concepts. Contrairement 



aux deux mesures de similarité précédentes, cette mesure 
de similarité contextuelle dépend du corpus, ou plus préci- 
sément dépend de la répartition des concepts dans le cor- 
pus. 

Dans notre approche, nous modélisons la similarité contex- 
tuelle entre deux concepts Ci et Cj par l'information mu- 
tuelle PMI 191 (Pointwise mutual information) p{ci,Cj) : 



p(q,Cj) =log 






(9) 



oii, P{ci) est la probabilité d'apparition de q, et P{ci, Cj) 
est la probabilité jointe de c^ et de Cj. Ces probabilités sont 
estimées en calculant les fréquences d'occurrence et de co- 
occurrence des concepts c^ et Cj dans la base d'images. 
Étant donné Af le nombre total de concepts dans notre 
base d'images, C le nombre total d'images, Ui le nombre 
d'images annotées par Ci (fréquence d'occurrence de c;) et 
riij le nombre d'images co-annotées par q et Cj, les proba- 
bilités précédentes peuvent être estimées par : 



P{c,) = f, Pic,,c,) = 



Ainsi : 



P{Ct,Cj) = log 
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(10) 



(11) 



p{ci, Cj) quantifie la quantité d'information partagée entre 
les deux concepts c^ et Cj. Ainsi, si Cj et Cj sont des 
concepts indépendants, alors P{ci,Cj) — P{ci) ■ P{cj) et 
donc p{ci, Cj) = log 1 = 0. p{ci,Cj) peut être négative si 
Ci et Cj sont corrélés négativement. Sinon, p{ci, Cj) > et 
quantifie le degré de dépendance entre ces deux concepts. 
Dans ce travail, nous cherchons uniquement à mesurer la 
dépendance positive entre les concepts et donc nous rame- 
nons les valeurs négatives de p{ci, Cj) à 0. 
Enfin, afin de la normaliser dans l'intervalle [0,1], nous cal- 
culons la similarité contextuelle entre deux concepts Ci et 
Cj dans notre approche par : 



7(Cï,Cj) = 
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(12) 



Il est à noter que la mesure PMI dépend de la distribution 
des concepts dans la base. Plus un concept est rare plus sa 
PMI est grande. Donc si la distribution des concepts dans 
la base n'est pas uniforme, il est préférable de calculer p 
par : 

Pic.,c,) = Pic.,c,)lo,^^^^ (13) 

3.4 Mesure de Similarité Proposée 

Pour deux concepts donnés, les mesures de similarité vi- 
suelle, conceptuelle et contextuelle sont d'abord normaU- 
sées dans le même intervalle. La normaUsation est faite par 
la normalisation Min-Max. Puis en combinant les mesures 
précédentes, nous obtenons la mesure de similarité séman- 
tique adaptée à l'annotation suivante : 

(j){ci,Cj) = wr^(ci,Cj)+W2-7f(cj,Cj)+W3-7(ci,Cj) (14) 



où : Y,i=i '^i = 1 ; '^{ci,Cj), 7f(ci, Cj) et 7(Cî, Cj) sont res- 
pectivement la similarité visuelle, la similarité conceptuelle 
et la similarité contextuelle normalisées. 
Le choix des pondérations ùJi est très important. En effet, 
selon l'application ciblée, certains préféreront construire 
une hiérarchie spécifique à un domaine (qui représente le 
mieux une particularité d'un domaine ou d'un corpus), et 
pourront donc attribuer un plus fort poids à la similarité 
contextuelle (W3 /*). D'autres pourront vouloir créer une 
hiérarchie générique, et devront donc donner plus de poids 
à la similarité conceptuelle {002 /^). Toutefois, si le but 
de la hiérarchie est plutôt de construire une plateforme 
pour la classification de concepts visuels, il est peut être 
avantageux de donner plus de poids à la similarité visuelle 

i^i A- 

3.5 Règles pour la création de la hiérarchie 

La mesure proposée précédemment ne permet que de don- 
ner une information sur la similarité entre les concepts 
deux à deux. Notre objectif est de regrouper ces différents 
concepts dans une structure hiérarchique. Pour cela, nous 
définissons un ensemble de règles qui permettent d'inférer 
les relations d'hypernymie entre les concepts. 
Nous définissons d'abord les fonctions suivantes sur les- 
quelles se basent nos règles de raisonnement : 
- Closest{ci) qui retourne le concept le plus proche de Ci 
selon notre mesure : 



Closest(ci) 



argmax(/)(ci,Cfc) 

CfcGC\{c,} 



(15) 



- LCS{ci,Cj) permet de trouver l'ancêtre commun le 
plus proche (Least Common Subsumer) de Ci et Cj dans 
WordNet : 

LCS{ci,Cj) = argmin len{ci,root) /i^r-, 

où H{ci) permet de trouver l'ensemble des hypernymes 
de Ci dans la ressource WordNet, root représente la ra- 
cine de la hiérarchie WordNet et len{cx,root) renvoie 
la longueur du plus court chemin entre c^ et root dans 
WordNet. 

- Hits^{ci) renvoie les 3 concepts les plus proche de Ci au 
sens de la fonction Closest{ci). 

Nous définissons ensuite trois règles qui permettent d'in- 
férer les liens de parenté entre les différents concepts. Ces 
différentes règles sont représentées graphiquement sur la 
figure I2] Ces règles sont exécutées selon l'ordre décrit 
dans la figure l2] La première règle vérifie si un concept 
Ci est classé comme le plus proche par rapport à plusieurs 
concepts {{Closest{cj) — Ci),Vj e {1, 2, • • • }). Si oui et 
si ces concepts {cj},Vj G {1, 2, •••}, sont réciproquement 
dans Hits3{ci), alors en fonction de leur LCS ils seront 
soit reliés directement à leur LCS ou dans une structure 
à 2 niveaux, comme illustré dans Figure |2(a)| Dans la se- 



conde, si {Closest(ci) 



et {Closest{cj) = Ci) (peut 



aussi être écrite Closest{C'losest{ci)) = Ci) alors Ci et Cj 
sont fortement apparentés et seront reliés à leur LCS. La 




(a) V^" Règle. 



]f Closest(Closest(Ci))==Ci then 




(b) 2»'='"'= Règle. 



if iaosest(C:) = C:) AND (Closest(C:) = c J then 

p ^ if(CjEHitS3(c,))ANDlc,eHitS3(Ct))then ^ — 

if LCSIc^.Cj) = LCS(c,, cj tiïën | | if LCS(C:,c,l= HILCS(c,, cj) tlien 




(C) 3- 



Règle. 



Figure 2 - Règles pour inférer les liens de parenté entre 
les différents concepts. En rouge les préconditions devant 
être satisfaites, en noir les actions de création de nœuds 
dans la hiérarchie. 



visuels (Bag of Features) (BoF). Le modèle utilisé BoF 
est construit comme suit : détection de caractéristiques vi- 
suelles à l'aide des détecteurs DoG de Lowe I.22J . descrip- 
tion de ces caractéristiques visuelles en utilisant le descrip- 
teur SIFT f22l, puis génération du dictionnaire eu utilisant 
un K-Means. Le dictionnaire généré est un ensemble de 
caractéristiques supposées être représentatives de toutes les 
caractéristiques visuelles de la base. Étant donnée la collec- 
tion de patches (point d'intérêt) détectés dans les images de 
l'ensemble d'apprentissage, nous générons un dictionnaire 
de taille D = 1000 en utilisant l'algorithme k-Means. En- 
suite, chaque patch dans une image est associé au mot vi- 
suel le plus similaire dans le dictionnaire en utilisant un 
arbre KD. Chaque image est alors représentée par un his- 
togramme de 1000 mots visuels (1000 étant la taille du co- 
debook), oti chaque bin dans l'histogramme correspond au 
nombre d'occurrences d'un mot visuel dans cette image. 

4.2 Pondération 

Comme ce travail vise à construire une hiérarchie adap- 
tée à l'annotation et la classification d'images, nous avons 
fixé les facteurs de pondération de manière expérimentale 
comme suit : wi = 0.4, uj2 — 0.3, et wa = 0.3. Nos expéri- 
mentations sur l'impact des poids (wi) ont également mon- 
tré que la similarité visuelle est plus représentative de la 
similarité sémantique des concepts, comme cela est illustré 
sur la figure l3] avec la hiérarchie produite. Cette hiérarchie 
est construite sur les données de Pascal VOC'2010. 

4.3 Evaluation 



troisième règle concerne le cas où {Closest{ci) — Cj) et 



Person (H-AP: 0,694) (F-AP: 0,501) 



{Closest{cj) = Cfc) - voir Figure 2(c) 



La construction de la hiérarchie suit une approche ascen- 
dante (i.e. commence à partir des concepts feuilles) et uti- 
lise un algorithme itératif jusqu'à atteindre le nœud racine. 
Étant donné un ensemble de concepts associés aux images 
dans un ensemble d'apprentissage, notre méthode calcule 
la similarité (l){ci,Cj) entre toutes les paires de concepts, 
puis relie les concepts les plus apparentés tout en respec- 
tant les règles définies précédemment. La construction de 
la hiérarchie se fait donc pas-à-pas en ajoutant un ensemble 
de concepts inférés des concepts du niveau inférieur On 
itère le processus jusqu'à ce que tous les concepts soient 
liés à un nœud racine. 

4 Résultats Expérimentaux 

Pour valider notre approche, nous comparons la perfor- 
mance d'une classification plate d'images avec une classifi- 
cation hiérarchique exploitant la hiérarchie construite avec 
notre approche sur les données de Pascal VOC'2010 (11 
321 images, 20 concepts). 

4.1 Représentation Visuelle 

Pour calculer la similarité visuelle des concepts, nous 
avons utilisé dans notre approche le modèle de sac-de-mots 




r (H-AP: 0,268) (F-AP; 0,176) 
Hierarchic'al classification + 




(a) Concept Person. 



(b) Concept Tv_monitor. 



Figure 5 - Courbes Rappel/Précision pour la classifica- 
tion hiérarchique (en +) et plate (en trait) pour les concepts 
"Personne" et "TV_Monitor". 

Pour évaluer notre approche, nous avons utilisé 50% des 
images du challenge Pascal VOC'2010 pour l'apprentis- 
sage des classifieurs et les autres pour les tests. Chaque 
image peut appartenir à une ou plusieurs des 20 classes 
(concepts) existantes. La classification plate est faite par 
l'apprentissage de J\f SVM binaires un-contre-tous, oii les 
entrées sont les représentations en BoF des images de la 
base et les sorties sont les réponses du SVM pour chaque 
image (1 ou - 1 ) - pour plus de détails voir la section |3.1[ 
Un problème important dans les données de Pascal VOC 



Figure 3 - La hiérarchie sémantique construite sur les données de Pascal VOC en utilisant la mesure proposée et les règles 
de construction. Les nœuds en double octogone sont les concepts de départ, le nœud en diamant est la racine de la hiérarchie 
construite et les autres sont les nœuds inférés. 0(cj, Cj) = 0.4 • 'ipici, Cj) + 0.3 • 7f(ci, Cj) + 0.3 • j{ci, Cj) 




Figure 4 - Comparaison de la Précision Moyenne (AP) entre la classification plate et hiérarchique sur les données de Pascal 
VOC'2010. 



est que les données ne sont pas équilibrées, i.e. plusieurs 
classes ne contiennent qu'une centaine d'images positives 
parmi les 1 1321 images de la base. Pour remédier à ce pro- 
blème, nous avons utilisé la validation croisée d'ordre 5 en 
prenant à chaque fois autant d'images positives que néga- 
tives. 

La classification hiérarchique est faite par l'apprentis- 
sage d'un ensemble de {J\f+A4) classifieurs hiérarchiques 
conformes à la structure de la hiérarchie décrite dans la 
figure l3] Ai est le nombre de nouveaux concepts créés 
lors de la construction de la hiérarchie. Pour l'apprentis- 
sage de chacun des concepts de la hiérarchie, nous avons 
pris toutes les images des nœuds fils (d'un concept donné) 
comme positives et toutes les images des nœuds fils de 
son ancêtre immédiat comme négatives. Par exemple, pour 
apprendre un classifieur pour le concept "Carnivore", les 
images de "Dog" et "Cat" sont prises comme positives et 
les images de "Bird", "Sheep", "Horse" et "Cow" comme 
négatives. Ainsi chaque classifieur apprend à différencier 
une classe parmi d'autres dans la même catégorie. Durant 
la phase de test de la classification hiérarchique et pour une 
image donnée, on commence à partir du nœud racine et 
on avance par niveau dans la hiérarchie en fonction des 
réponses des classifieurs des nœuds intermédiaires, jus- 
qu'à atteindre un nœud feuille. Notons qu'une image peut 
prendre plusieurs chemins dans la hiérarchie. Les résultats 



sont évalués avec les courbes rappel/précision et le score 
de précision moyenne. 

La Figure |4] compare les performances de nos classifieurs 
hiérarchiques avec les performances de la classification 
plate. L'utilisation de la hiérarchie proposée comme un 
cadre de classification hiérarchique assure des meilleures 
performances qu'une classification plate, avec une amélio- 
ration moyenne de H-8.4%. Notons que ces résultats sont 
obtenus en n'utilisant que la moitié des images du jeu 
d'apprentissage de Pascal VOC. En effet, en l'absence des 
images de test utilisées dans le challenge, nous avons uti- 
lisé le reste de l'ensemble d'apprentissage pour faire les 
tests. Nous avons aussi inclus les images marquées comme 
difficiles dans les évaluations de notre méthode. La pré- 
cision moyenne de notre classification hiérarchique est de 
28,2%, alors que la classification plate reste à 19,8%. On 
peut donc remarquer une nette amélioration des perfor- 
mances avec l'utilisation de la hiérarchie proposée. La Fi- 
gure |5]montre les courbes de rappel/précision des concepts 
"Personne" et "TV_Monitor" en utilisant la classification 
hiérarchique et plate. Une simple comparaison entre ces 
courbes montre que la classification hiérarchique permet 
d'avoir un meilleur rendement à tous les niveaux de rappel. 
Cependant, il serait intéressant de tester notre approche sur 
une plus grande base, avec plus de concepts, pour voir si la 
hiérarchie construite pour la classification des images passe 



à l'échelle. 

5 Conclusion 

Ce papier présente une nouvelle approche pour construire 
automatiquement des hiérarchies adaptées à l'annotation 
sémantique d'images. Notre approche est basée sur une 
nouvelle mesure de similarité sémantique qui prend en 
compte la similarité visuelle, conceptuelle et contextuelle. 
Cette mesure permet d'estimer une similarité sémantique 
entre concepts adaptée à la problématique de l'annotation. 
Un ensemble de règles est proposé pour ensuite effective- 
ment relier les concepts entre eux selon la précédente me- 
sure et leur ancêtre commun le plus proche dans Word- 
Net. Ces concepts sont ensuite structurés en hiérarchie. 
Nos expériences ont montré que notre méthode fournit une 
bonne mesure pour estimer la similarité des concepts, qui 
peut aussi être utilisée pour la classification d'images et/ou 
pour raisonner sur le contenu d'images. Nos recherches fu- 
tures porteront sur l'évaluation de notre approche sur des 
plus grandes bases d'images (MirFlicker et ImageNet) et 
sa comparaison avec l'état de l'art. 
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